5 A Arquitetura Transformer

5.1 Visão Geral da Estrutura

A arquitetura Transformer é a espinha dorsal de virtually todos os LLMs contemporâneos. Ela é composta por uma pilha de blocos idênticos, chamados camadas ou layers, que processam a entrada de forma hierárquica. Cada camada contém dois componentes principais: uma camada de auto-atenção multi-head e uma rede neural feed-forward, ambos acompanhados de conexões residuais e mecanismos de normalização.

A entrada da rede é uma sequência de tokens, cada um representado por um vetor denso. À medida que a sequência atravessa cada camada do Transformer, ela é progressivamente transformada, com cada camada extraindo e refinamento diferentes aspectos da representação semântica e sintática do texto.

5.2 Codificador e Decodificador

O Transformer original foi proposto com duas partes principais: um codificador (encoder) e um decodificador (decoder). O codificador processa a sequência de entrada e produz uma representação intermediária que captura o significado do texto. O decodificador gera a sequência de saída token por token, utilizando tanto a representação do codificador quanto os tokens já gerados.

Existem diferentes variantes da arquitetura Transformer. Modelos como BERT utilizam apenas o codificador, sendo especialmente eficazes para tarefas de compreensão, como classificação de texto e extração de informações. Modelos como os da série GPT utilizam apenas o decodificador, sendo otimizados para geração de texto. A arquitetura T5 utiliza ambos os componentes.

5.3 Redes Feed-Forward

Além do mecanismo de atenção, cada camada do Transformer contém uma rede neural feed-forward, também chamada de MLP (Multi-Layer Perceptron). Essa rede é aplicada a cada posição da sequência independentemente e tipicamente consiste em duas ou três camadas lineares com uma função de ativação não-linear entre elas.

A rede feed-forward é responsável por processar as representações aprendidas pelo mecanismo de atenção, adicionando capacidade computacional adicional para transformar as features em representações mais sofisticadas. Estudos recentes sugerem que diferentes componentes do Transformer especializam-se em diferentes tipos de processamento, com as redes feed-forward sendo responsáveis por grande parte do “conhecimento factual” armazenado no modelo.

5.4 Conexões Residuais e Normalização

Cada bloco do Transformer utiliza conexões residuais, onde a entrada de um subcomponente é adicionada diretamente à sua saída. Essa técnica, introduzida no contexto de redes neurais profundas para ImageNet, permite que o gradiente flua mais facilmente durante o treinamento, possibilitando a construção de redes muito profundas.

A normalização de camadas é aplicada antes ou depois de cada subcomponente, garantindo que os valores intermediários mantenham estatísticas apropriadas. A combinação de conexões residuais e normalização é fundamental para permitir o treinamento estável de modelos com centenas de camadas e bilhões de parâmetros.